Krzywe PDP

Według pisanego przez nas rozdziału, wg dwóch najlepszych modeli, czyli lasu losowego i xgboost, najważniejsze (feature importance) były głównie zmienne geodezyjne (lat,long), powierzchnia użytkowa (m2_living) oraz takie zmienne jak zipcode oraz grade. Przyjżyjmy się wpierw zmiennym geodezyjnym uznawanym za najważniejsze wg

Wyjaśnienia tutaj są zgodne między sobą i z przewidywaniami. Miejsca, w których rośnie krzywa PDP odpowiadają za centrum Seattle. Nic dziwnego, że mieszkania tam są droższe. Co do zmiennej m2_living spodziewamy się w przybliżeniu liniowego wzrostu, i tak też jest. Co ciekawe, las losowy jest mniej nachylony, czyli wg RF jest niższa cena za metr kwadratowy. Popatrzmy na krzywe ALD tym razem.

## Warning: Removed 4 row(s) containing missing values (geom_path).

Jest też jeszcze zmienna dist_stop określająca dystans do najbliższego przystanku autobusowego. Krztałt krzywych pdp jest tutaj inny:

## Warning: Removed 24 row(s) containing missing values (geom_path).

Według xgboosta im bliżej do przystanku, tym mieszkanie może znacząco stracić na wartości. Z kolei las losowy sugeruje, że jak przystanek jest niezbyt daleko, w odległości mniej więcej 250m, to jest to traktowane in plus, a im dalej, tym gorzej.

Najciekawiej zachowywały się krzywe dla zipcode’ów.

Tym razem RF szaleje, a xgboost jest bardzo zachowawczy. Sama istotność zipcode nas nie powinna dziwić. W Polsce nie ma to znaczenia, natomiast w USA np szkoła jest określana na podstwie lokalizacji. Przychody szkoły również są oparte na podatkach, więc generalnie im bogatsza okolica, tym więcej pieniędzy szkoła dostaje.

Porównajmy jeszcze dwa inne modele zbudowane przy użyciu one-hot encoding.

Są obszary, w których gbm_onehot i xgboost_onehot się zgadzają co do znaku oraz takie, w których mają przeciwne zwroty. Dla zwiększenia czytelności wykresu wybrałem tylko te.

Sprawdziłem jeszcze, czy przyczyną może być ilość sprzedanych tam domów. Otóż raczej nie – nie są to pojedyncze obserwacje. * 98010: 56, * 98106: 241, * 98108: 135.

Wróćmy do poprzednich dwóch modeli i porównajmy dla np tych kodów pocztowych 98106 i 98108, które są obok siebie, a poprzednie modele nie zgadzają się, co do nich.

## Warning: Removed 120 row(s) containing missing values (geom_path).

Być może zipcode 98010, z racji, że leży poza miastem, ma większe domy, bo ziemia jest tańsza. Niby życie za miastem powinno być tańsze, ale też można sobie pozwolić na więcej.

Poszukałem kilku najdroższych z nich na google street view, ale nie można dotrzeć do wszystkich. Druga najdroższa to domek warty 902500$ o powierzchni 300m², położony nad jeziorem, 1974 metry od najbliższego przystanku autobusowego.

Nie jest to coś, na co można sobie pozwolić w obrębie Seattle. A, wracając do centrum i pozostałych zipcode’ów, to można też zobaczyć, że 98018 to teren bezpośrednio obok lotniska. Spadek cen w tym obszarze można wytłumaczyć hałasem.